#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# @File  :   网易新闻采集.py
# Author :   柏汌

"""

html
<div class="video-play">沙发进度还是</div>
a标签   超链接   网页跳转
xpath 提取数据   有自己单独的语法
获取前端标签
语法认识：
    /   根节点获取数据
    //  跨节点取数据
    @   获取属性
    text   获取文本数据



状态码的认识
区分网页资源请求状态
200   请求成功
300   重定向
400   请求失败    403 拒绝访问
为什么出现这种情况  ？
服务器识别出你不是一个正常用户


500   服务器内部问题



请求头的认识
accept  浏览器接受的数据
cookie  实现状态保持   欠条
user-agent 用户代理   浏览器身份证


案列：网易新闻采集



"""
import requests
from lxml import etree  # 转换数据

# 获取网页资源地址
url = 'https://c.m.163.com/news/hot/newsList'
# 发送请求
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
}
response = requests.get(url, headers=headers)
# print(response.text)  # 静态数据 html  xpath

data = etree.HTML(response.text)
# print(data)
title_list = data.xpath('//div[@class="title"]/a/text()')  # 列表数据
# print(title_list)
href_list = data.xpath('//div[@class="title"]/a/@href')
# print(href_list)
# 保存数据
with open('网易.csv', 'a+')as f:
    for title, href in zip(title_list, href_list):
        f.write("{},{}\n".format(title, href))